pytorch transformer speech-recognition automatic-speech-recognition production-ready asr conformer e2e-models Python

End-to-end Audio-visual Speech Recognition with Conformers

简介提出了可端到端训练的音视语音识别模型，输入waveform和唇部的每一帧，音视各通过一个conformer encoder后concat并FC得到融合特征，最后是transformer decoder。端到端训练比分开训练好；当信噪比较低时，...

VALL-E:Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers

标签：大数据自然语言处理人工智能

speech量化成discrete tokens，然后恢复成音频。motivation：将大数据训练语言模型的方法引入到TTS中，通过极大的数据量进行in-context learning，使用prompt-based approaches方法做zero-shot TTS效果demo。

speech-recognition zh-CN脱机识别库

标签： python 语音识别 zh-CN

浅谈 python 使用speech-recognition 之脱机语音识别

【论文学习】《Tacotron: Towards End-to-End Speech Synthesis》

标签： Tacotron CBHG Griffin-Lim

《Tacotron: Towards End-to-End Speech Synthesis》论文学习文章目录《Tacotron: Towards End-to-End Speech Synthesis》论文学习  摘要  1 介绍  2 相关工作  3 模型架构    3.1 ...

语音识别(ASR)论文优选：端到端ASR综述Recent Advances in End-to-End Automatic Speech Recognition

标签：语音识别人工智能

搜集一些资料，方便查阅学习：http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html，语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找...

text-to-speech:将文字转换成语音

标签： javascript text-to-speech HTML

克隆此仓库将目录更改为使用cd text-to-speech贡献如果您决定改进存储库，我们将不胜感激。如果是这样，请提前谢谢。有关更多详细信息，请阅读“ ”。执照这是在麻省理工学院执照下分发的。有关更多详细信息，请...

Google Cloud Speech-to-Text / Text-to-Speech API 试用

标签： google

Google Cloud Speech-to-Text / Text-to-Speech API 试用准备步骤准备梯子自备产品页： https://cloud.google.com/speech-to-text https://cloud.google.com/text-to-speech google 账号双币visa信用卡步骤 ...

语音合成（speech synthesis）方向五：多语言模型multi-lingual and code switch speech synthesis

标签：语音识别人工智能深度学习

本文稍长，希望能耐住性子看下去声明：工作以来主要从事TTS工作，工程算法都有涉及，平时看些文章做些笔记。文章中难免存在错误的地方，还望大家海涵...2研究情况 2.1 迁移学习 2.1.1系统架构设计 2.1.2 输入格..

FB-MSTCN: A FULL-BAND SINGLE-CHANNEL SPEECH ENHANCEMENT METHODBASED ON MULTI-SCALE TEMPORAL CONVOLU

标签：神经网络深度学习

FB-MSTCN: A FULL-BAND SINGLE-CHANNEL SPEECH ENHANCEMENT METHOD BASED ON MULTI-SCALE TEMPORAL CONVOLUTIONAL NETWORK [arXiv:2203.07684v1] Motivation 由于训练数据的限制和计算复杂度，全波段(48kHz)...

DPT-FSNET: DUAL-PATH TRANSFORMER BASED FULL-BAND AND SUB-BAND FUSION NETWORK FOR SPEECH ENHANCEMENT

标签： transformer 深度学习人工智能

子带模型对谱图的局部模式建模方面取得了较好的结果。已有部分工作将子带信息和全带信息进行融合，以提升模型的性能。本文提出了一种基于transformer的双分支全带、子带融合网络（DPT-FSNet），用于频域的语音增强。...

WORLD声码器:A Vocoder-Based High-Quality Speech Synthesis System for Real-Time Applications

abstract 可以实现实时、高质量的语音合成。比传统的系统速度快10倍以上，RTF(real time factor)表明它可以应用于实时系统。 1. introduction 两个要求：高质量实时性高质量的语音合成系统包括基频F0和谱...

Direct speech-to-speech translation with a sequence-to-sequence model

这个模型叫做S2ST(speech-to-speech translation)。原理是通过一个语音的声谱图映射到另一种语音的声谱图。 Abstract 我们提出了一种基于注意力的序列到序列神经网络，它可以直接将一种语言的语音转换成另一种语言...

【ChatGPT】GPT-3.5+ChatGPT：图解概述

标签： chatgpt gpt-3 人工智能

总结常见问题–ChatGPT的受欢迎程度–ChatGPT的成本–ChatGPT的成就–在本地运行ChatGPT–API时间线GPT-3概述（2020年5月）GPT-3.5或InstructGPT概述（2022年1月）ChatGPT概述（2022年11月）ChatGPT的推荐替代方案...

Transformer-TTS: Neural Speech Synthesis with Transformer Network阅读笔记

标签： Transformer transformer-TTS attention

5. Transformer-TTS: Neural Speech Synthesis with Transformer Network 文章于2019年1月发表 Transformer-TTS可以看做Tacotron2+transformer的组合，作者认为优点主要为：通过移除RNN结构实现并行训练，因为...

Android 离线文字转语音功能-TTS(Text To Speech)

标签： android TTS 文字转语音

在 Android 中，TTS全称叫做 Text to Speech，从字面就能理解它解决的问题是什么，把文本转为语音服务，意思就是你输入一段文本信息，然后Android 系统可以把这段文字播报出来。这种应用场景目前比较多是在各种语音...

uniapp-Speech语音识别（百度）

标签： vue uni-app

找到manifest.json文件中的App模块配置-Speech uniapp中有两种方式，一个是讯飞语音，一个是百度语音，两种都可以，我使用的是百度，勾选百度，并填入Appid等参数(参数去百度申请）第二步打开百度智能云平台注册...

Controllable Emotion Transfer For End-to-End Speech Synthesis

标签：深度学习

Tacotron2-GMM attention框架 reference encoder：CNN block+GRU emotion classfier：7种情感的分类 loss函数 style loss 图像上用Gram matrix表征图像的局部统计特征，该方法也被引入语音计算mel谱频率域特征的...

Azure Cognitive Services- Speech To Text

标签： azure 认知服务 stt

Speech 服务是认知服务的一种，提供了语音转文本，文本转语音, 语音翻译等，今天我们实战的是语音转文本（Speech To Text）。 STT支持两种访问方式，1.是SDK，2.是REST API。其中: SDK方式支持识别麦克风的...

DeepSpeech2训练aishell数据集训练的模型

标签： paddlepaddle deepspeech2 语音识别人工智能深度学习

PaddlePaddle实现的DeepSpeech2模型，训练aishell数据集训练的模型，源码地址：https://github.com/yeyupiaoling/PaddlePaddle-DeepSpeech

TTS Text-to-speech（文字转语音）服务

标签： linux 语音识别 ai

官网链接：Speech Studio - Microsoft Azure （https://speech.azure.cn/audiocontentcreation）中文帮助文档：【文本转语音快速入门 - 语音服务 - Azure Cognitive Services | Microsoft Docs】 ...

wav2vec2.0: A Framework for Self-Supervised Learning of Speech Representations

标签：深度学习语音识别

1.wav2vec2.0: A Framework for Self-Supervised Learning of Speech Representations (1) 论文思路基于vq2vec的思路，通过mask 在latent space 上的语音输入，训练一个contrastive task将真正的量化的latent变量...

（论文阅读笔记）Data2vec: A General Framework for Self-supervised Learning in Speech, Vision and ...

标签：深度学习计算机视觉人工智能

(论文阅读笔记：语音、视觉和语言自我监督学习的一般框架，MetaAI

【API解析】微软文本转语音(text-to-speech)官方Demo调用步骤

标签： c# 语音识别经验分享

【API解析】微软文本转语音(text-to-speech)官方Demo调用步骤，白嫖官方的API

azure-cognitiveservices-speech api error while using with AWS Lambda

标签： azure aws microsoft

2.解决方案，变更 azure-cognitiveservices-speech 版本为。正常运行没有问题，服务部署到docker 容器中后调用Azure语音评估服务报错。Cancellation Reason 初始化平台失败。再次调用服务，完美解决。

蓝牙协议HFP（Hands-Free Profile）电话免提协议 Connection management 连接管理HFP SLC 的建立跟释放

标签：蓝牙HFP 蓝牙免提协议蓝牙电话协议

零. 概述本文章主要讲下电话免提协议HFP（Hands-Free Profile）Connection management。包括connection establishment 跟connection realease，那connection establishment又会涉及到HFP SLC的建立过程 ...

数字人解决方案——ER-NeRF实时对话数字人模型训练与项目部署

标签：人工智能 NERF ER-NERF

ER-NeRF是基于NeRF用于生成数字人的方法，可以达到实时生成的效果。具体来说，为了提高动态头部重建的准确性，ER-NeRF引入了一种紧凑且表达丰富的基于NeRF的三平面哈希表示法，通过三个平面哈希编码器剪枝空的空间...

Azure text-to-speech 语音合成中文晓晓情感API使用及教程

标签： azure websocket api

官方演示：https://azure.microsoft.com/en-us/services/cognitive-services/text-to-speech/#features ...创建完成后在资源管理中找到密钥和终节点，主要是密钥一和区域这2个 POST /sts/v1.0/issueToken .

【TTS】uni-app语音播报app开发 / MT-TTS安卓原生自带语音合成插件（免费无限次）

标签： 1024程序员节 uni-app android

uniapp使用安卓原生语音合成插件，免费无限次数

语音识别综述 awesome-speech-recognition-speech-synthesis-papers

https://github.com/zzw922cn/awesome-speech-recognition-speech-synthesis-papers ...awesome-speech-recognition-speech-synthesis-papers automatic speech recognition/speech synthesis paper roadmap,

GPT-2 论文翻译

标签： NLP GPT-2 无监督预训练

GPT-2 论文翻译基本是机器翻译，也进行了基本的人工矫正，凑活看吧原论文：《Language Models are Unsupervised Multitask Learners》原论文地址：...